2013/03/26

[摘譯] Big Data是什麼意思?

[原文] What Does Big Data Mean? [1] [2] [3] [4]

[譯按]
原文的作者 Michael Stonebraker 是資料庫技術的專家, MIT 的教授,同時也參與許多新創企業的活動。

[摘譯]
作為一位處理資料庫問題長達數十年的人,我想從四個不同的範疇來談「什麼是巨量資料」。

1.大量的資料,小小的分析 (Big volumes of data, but "small analytics.")
基本上這指的是讓 SQL 可以支援很大的資料量。當然,這裡談的是 SQL 的 count, sum, max, min, avg, group_by 等指令,而不是 select。所謂的「小分析」,是相對於「大分析」來說的, 這會在下一項說明。

2.大分析,大資料(Big analytics on big volumes of data.)
我所謂的「大分析」,指的是對大量的資料進行「叢集分析」、「迴歸分析」、機器學習,以及其他更複雜的分析方法。這些分析的進行除了用現有的分析工具,如:R,SAS,SPSS 之外,也會有機會直接用到各式線性代數的函式庫, 像是 ScalapackArpack,總之這種分析常常需要自己編寫客製化的程式。

3.高速(Big velocity)
這裡指的是高速的處理與吸收大量的、即時湧進的資料,像是電子交易、網路廣告選播、即時的精準行銷,和行動社群網路等等。這個使用情境在大型網站跟華爾街最為流行,而這些地方也都會建置自己的系統。

4.異質性(Big variety)
許多企業都面臨了新的資料處理需求:越來越多不同來源、越來越大量的資料。傳統上,有許多 ETL(萃取(extract)、轉置(transform)、載入(load))廠商在提供某個範圍之內的解決方案。

[譯按]
原文作者針對每一個範疇寫了一篇詳盡的討論( [1] [2] [3] [4]),其中 [1] 跟前幾年興起的雲端科技息息相關,討論的主要是在分散式架構下使用傳統的資料庫技術,[3] 與 [4] 是在新的需求下,各自相應而生的新資料庫架構,而 [2] 則是討論未來的「資料分析」會更需要新的分析技術和與應用的密切結合。

由於各篇文章的篇幅都不短,這裡筆者主要想藉著大師的文章,點出 Big Data 其實包含「資料庫」跟「分析」這兩個不同領域的主題,對個別領域有興趣的讀者歡迎先往原文做進一步的了解。



沒有留言: